3.3.1 스페셜리스트(Specialist)에서 제너럴리스트(Generalist)로: 좁은 태스크 해결사에서 범용 로봇으로의 목표 전환

3.3.1 스페셜리스트(Specialist)에서 제너럴리스트(Generalist)로: 좁은 태스크 해결사에서 범용 로봇으로의 목표 전환

1. 서론: 로봇 공학의 패러다임 전환과 범용성의 여명

로봇 공학의 역사는 오랫동안 ’통제’와 ’예측 가능성’이라는 두 가지 기둥 위에 세워져 왔다. 지난 반세기 동안 산업 현장을 지배해 온 로봇들은 철저하게 사전 정의된 환경에서, 인간 엔지니어가 한 줄 한 줄 코딩한 명령에 따라 움직이는 ’스페셜리스트(Specialist)’들이었다. 자동차 공장의 용접 로봇이나 물류 센터의 분류 로봇은 자신에게 주어진 좁은 태스크(Narrow Task) 내에서는 인간을 훨씬 능가하는 속도와 정밀도를 보여주었다. 그러나 이러한 효율성의 이면에는 치명적인 ’취약성(Brittleness)’이 존재했다. 조명이 조금만 바뀌어도, 부품의 위치가 몇 센티미터만 어긋나도, 혹은 훈련 데이터에 없던 새로운 물체가 등장하면 이 기계들의 지능은 즉시 마비되었다.1

지금 우리는 이 오래된 패러다임이 근본적으로 뒤집히는 역사적인 전환점에 서 있다. 인공지능, 특히 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 거대 언어 모델(LLM)이 보여준 놀라운 범용성은 로봇 공학자들에게 새로운 목표를 제시했다. 바로 특정 작업에 얽매이지 않고, 인터넷 규모의 지식을 바탕으로 낯선 환경과 새로운 물체를 이해하며, 스스로 해결책을 추론할 수 있는 ‘제너럴리스트(Generalist)’ 로봇, 즉 ’범용 로봇 뇌’의 구축이다.2 이 전환은 단순한 기술적 진보를 넘어, 로봇을 바라보는 철학적 관점의 변화이자 ’자동화(Automation)’에서 진정한 의미의 ’자율성(Autonomy)’으로 나아가는 여정이다.

본 장에서는 스페셜리스트 모델이 직면한 한계와 이를 극복하기 위한 제너럴리스트 모델의 등장 배경을 심도 있게 분석한다. Gato와 RT-1에서 시작되어 RT-2, Octo, 그리고 최신 Pi0와 GR00T에 이르는 로봇 파운데이션 모델(Robotic Foundation Models, RFMs)의 기술적 계보를 추적하며, 이들이 어떻게 비전, 언어, 행동을 통합하여 물리적 세계의 복잡성을 정복해 나가고 있는지 상세히 기술할 것이다.

2. 스페셜리스트 모델의 구조적 한계와 ‘데이터의 고립’

2.1 스페셜리스트의 정의: 정밀함과 경직성의 딜레마

스페셜리스트 모델은 특정 하드웨어와 구체적인 작업 시나리오에 맞춰 처음부터(from scratch) 훈련되는 모델을 의미한다.1 이들은 환경에 대한 강력한 가정(Prior Assumptions)을 전제로 한다. 예를 들어, 특정 물류 로봇은 “컨베이어 벨트 위의 물체는 항상 정해진 조도 아래에 있으며, 규격화된 박스 형태일 것“이라는 가정을 바탕으로 최적화된다. 이러한 접근법은 통제된 변수 내에서는 최고의 성능(State-of-the-Art, SOTA)을 보장하며, 예측 가능한 주기 시간(Cycle Time)과 높은 신뢰성을 제공한다.1

그러나 현실 세계는 결코 통제되지 않는다. 창고의 창문으로 들어오는 햇빛의 각도는 계절마다 변하고, 취급해야 할 상품의 패키징은 매일 달라지며, 로봇의 센서는 시간이 지남에 따라 미세하게 틀어진다(Sensor Drift). 스페셜리스트 모델은 이러한 ‘분포 외(Out-of-Distribution, OOD)’ 상황에 직면했을 때 적응하지 못하고 실패한다. 이를 극복하기 위해 엔지니어들은 끊임없이 새로운 데이터를 수집하고 모델을 재학습시켜야 하는데, 이는 막대한 비용과 시간을 요구하는 ’기술 부채(Tech Debt)’로 이어진다.1

2.2 확장성의 병목: N개의 태스크, N번의 훈련

스페셜리스트 패러다임의 가장 큰 경제적, 기술적 병목은 확장성(Scalability)의 부재다. 새로운 작업을 수행하거나 새로운 로봇 하드웨어를 도입할 때마다, 기존의 데이터와 모델은 무용지물이 되기 십상이다. 로봇의 팔 길이(Link Length)나 관절의 자유도(DoF), 카메라의 위치가 조금만 달라져도 기존에 학습된 정책(Policy)은 전이(Transfer)되지 않는다.6

이는 결과적으로 ‘데이터의 고립(Data Silos)’ 현상을 초래했다. 전 세계의 수많은 연구실과 기업들이 각자의 로봇을 위해 데이터를 수집하지만, 이 데이터들은 서로 호환되지 않는 포맷과 환경 설정 때문에 공유되거나 축적되지 못했다. 빅데이터를 먹고 자라는 딥러닝의 잠재력이 로봇 공학에서만큼은 하드웨어의 파편화라는 장벽에 가로막혀 있었던 것이다.7

2.3 모라벡의 역설과 행동 데이터의 희소성

왜 로봇은 챗GPT와 같은 ’아이폰 모멘트’를 아직 맞이하지 못했는가? 이에 대한 답은 1980년대 한스 모라벡이 제기한 ’모라벡의 역설(Moravec’s Paradox)’에서 찾을 수 있다. 인간에게 어려운 고등 추론(체스, 주식 투자 등)은 AI에게 비교적 쉽지만, 인간에게 쉬운 감각 운동 능력(걷기, 낯선 물건 집기)은 AI에게 극도로 어렵다는 것이다.

인터넷에는 수조 개의 텍스트와 이미지가 존재하여 거대 모델의 학습 연료가 되지만, 로봇의 관절 토크(Torque), 속도, 위치, 그리고 물리적 상호작용의 결과가 담긴 고품질의 ’행동 데이터(Action Data)’는 극도로 희소하다.2 스페셜리스트 모델은 이 데이터 희소성 문제를 좁은 영역의 데이터 집중 수집으로 우회하려 했으나, 이는 결국 범용적인 물리 지능의 부재로 귀결되었다. 이제 제너럴리스트 접근법은 이 희소성을 극복하기 위해 인터넷의 방대한 비전-언어 데이터와 로봇 데이터를 융합하고, 시뮬레이션과 실제 세계를 오가는 새로운 방법론을 모색하고 있다.

3. 제너럴리스트를 향한 기술적 도약: 로봇 파운데이션 모델(RFM)

제너럴리스트로의 목표 전환은 단순히 “더 많은 데이터“를 넣는 것이 아니라, 로봇의 인지(Perception), 판단(Reasoning), 행동(Action)을 아우르는 통합 아키텍처의 혁신을 의미한다. 특히 자연어 처리 분야를 평정한 트랜스포머(Transformer) 아키텍처의 도입은 로봇 제어 문제를 ’다음 토큰 예측(Next-Token Prediction)’이라는 시퀀스 모델링 문제로 치환함으로써 범용성의 가능성을 열었다.

3.1 Gato: 멀티모달 제너럴리스트의 시원(始原)

2022년 DeepMind가 공개한 Gato는 “단일 네트워크로 모든 것을 수행한다“는 가설을 증명한 기념비적인 연구이다. Gato는 아타리 게임을 하고, 이미지에 캡션을 달고, 사용자와 채팅을 하며, 동시에 로봇 팔로 블록을 쌓는 등 604개의 서로 다른 태스크를 수행했다. 놀라운 점은 이 모든 작업이 태스크별로 분리된 모델이 아니라, 동일한 가중치(Weights)를 공유하는 단일 트랜스포머 모델에 의해 수행되었다는 것이다.9

Gato의 핵심 혁신은 통합 토큰화(Unified Tokenization) 전략에 있다. 텍스트는 물론, 이미지 패치, 이산화된(Discretized) 로봇의 관절 값, 버튼 입력 등을 모두 평평한 토큰 시퀀스로 직렬화(Serialization)했다. 이를 통해 로봇 제어 문제를 마치 언어 번역 문제처럼 다룰 수 있게 되었다. Gato는 비록 실제 물리적 로봇 제어의 정밀도나 실시간성 측면에서 전문적인 스페셜리스트 모델에 비해 부족함이 있었지만, 로봇 학습에 있어 데이터의 모달리티(Modality) 장벽을 허물고 범용 에이전트의 청사진을 제시했다는 점에서 역사적 의의를 갖는다.12

3.2 RT-1: 현실 세계 제어를 위한 스케일업

Gato가 가능성을 보여주었다면, Google의 **RT-1 (Robotics Transformer 1)**은 이를 대규모 현실 세계 데이터에 적용하여 실질적인 성능을 입증한 모델이다. RT-1은 13만 개 이상의 실제 로봇 에피소드를 학습하여 700개 이상의 태스크를 97%의 성공률로 수행했다.14

RT-1의 아키텍처는 효율성과 강건함에 초점을 맞추었다. 비전 정보를 처리하기 위해 ImageNet으로 사전 학습된 EfficientNet을 백본으로 사용하고, 자연어 명령은 Universal Sentence Encoder를 통해 임베딩된 후 FiLM(Feature-wise Linear Modulation) 레이어를 통해 이미지 처리 과정에 주입된다.15 그 결과, RT-1은 조명, 배경, 물체의 위치 등 환경적 변수가 다양한 실제 주방 환경에서도 높은 성공률을 보였으며, 본 적 없는 새로운 조합의 명령(예: 본 적 없는 물체를 특정 위치에 놓기)에 대해서도 일정 수준의 일반화 능력을 보여주었다.16 RT-1은 로봇 학습에 있어 ’모델의 크기’와 ’데이터의 다양성’이 확보될 때 스페셜리스트 모델이 갖지 못한 강건함(Robustness)이 발현됨을 실증했다.

3.3 RT-2: 비전-언어-행동(VLA) 모델과 의미론적 지식의 전이

스페셜리스트에서 제너럴리스트로의 전환에 있어 가장 결정적인 도약은 RT-2의 등장과 함께 이루어졌다. RT-1이 로봇 데이터로 훈련된 모델이었다면, RT-2는 인터넷상의 방대한 텍스트와 이미지를 학습한 거대 비전-언어 모델(VLM)을 로봇 제어에 직접 활용하는 비전-언어-행동(VLA, Vision-Language-Action) 모델이다.17

RT-2의 핵심 아이디어는 로봇의 행동(Action)을 텍스트와 동등한 ’언어’로 취급하는 것이다. 로봇의 팔 움직임을 나타내는 6자유도(DoF) 값들을 텍스트 토큰으로 변환하여, VLM의 어휘(Vocabulary)에 포함시켰다. 이를 통해 RT-2는 “사과를 집어라“와 같은 명시적인 명령뿐만 아니라, VLM이 가진 방대한 상식과 추론 능력을 로봇 제어에 전이(Transfer)시킬 수 있게 되었다.

특징RT-1RT-2 (VLA)
기반 모델EfficientNet + Transformer (로봇 전용)PaLM-E / PaLI-X (웹 데이터 사전 학습)
학습 데이터로봇 궤적 데이터 중심웹 스케일 이미지/텍스트 + 로봇 데이터
추론 능력명시적 명령 수행 (Explicit Instruction)의미론적 추론 & 창발적 능력 (Emergent Reasoning)
일반화제한적 (훈련된 물체 위주)강력함 (처음 보는 물체 및 추상적 개념 이해)
아키텍처Action Tokenizer 별도Action을 텍스트 토큰으로 통합

표 1: RT-1과 RT-2의 비교 분석 17

RT-2가 보여준 가장 놀라운 성과는 **창발적 능력(Emergent Capabilities)**이다. 예를 들어, 로봇 데이터셋에는 ’망치’를 사용하는 법이 없더라도, “망치로 쓸 수 있는 것을 집어라“라고 명령하면 로봇은 VLM의 지식을 동원해 주변의 ’돌’을 집어 든다.19 또한 “지친 사람을 위한 음료를 골라라“라는 명령에 ’에너지 드링크’를 선택하는 등, 단순한 패턴 매칭을 넘어선 의미론적 추론(Semantic Reasoning)을 물리적 행동으로 연결하는 데 성공했다. 이는 로봇이 더 이상 좁은 태스크 해결사가 아니라, 세상을 이해하고 판단하는 지능형 에이전트로 진화했음을 의미한다.

3.4 Open X-Embodiment와 Octo: 하드웨어의 장벽을 넘어서

제너럴리스트 로봇의 꿈을 실현하기 위한 또 다른 과제는 하드웨어의 다양성이다. 각기 다른 형태(Embodiment)를 가진 로봇들이 서로의 데이터를 공유하고 학습할 수 있을까? Google DeepMind가 주도한 Open X-Embodiment 프로젝트는 이에 대한 긍정적인 답을 제시했다. 21개 기관, 34개 로봇 연구실이 협력하여 22종의 서로 다른 로봇에서 수집한 100만 개 이상의 에피소드를 하나의 거대한 데이터셋으로 통합했다.20

이 통합 데이터를 바탕으로 훈련된 RT-X 모델들은 특정 로봇의 데이터만으로 훈련된 스페셜리스트 모델보다 평균 50% 이상 높은 성공률을 기록했다. 이는 서로 다른 로봇의 경험이 상호 보완적으로 작용하여 **긍정적 전이(Positive Transfer)**를 일으킨다는 사실을 증명한 것이다. 특히 큰 데이터셋을 가진 로봇의 지식이 작은 데이터셋을 가진 로봇의 성능을 향상시키는 현상이 관찰되었다.20

이 흐름을 이어받아 UC Berkeley 등은 Octo라는 오픈소스 제너럴리스트 정책을 공개했다. Octo는 트랜스포머 기반의 디퓨전 정책(Diffusion Policy)을 채택하여, 다양한 로봇의 입력(카메라 수, 센서 타입)과 출력(액션 공간)을 유연하게 처리할 수 있도록 설계되었다.22 Octo는 사용자가 자신의 특정 로봇에 맞게 적은 데이터로도 쉽게 미세 조정(Fine-tuning)할 수 있는 ’Foundation Model as a Service’의 형태를 띠며, 로봇 AI의 민주화를 가속화하고 있다.

4. 최신 동향 (2024-2025): 물리적 지능의 심화와 세계 모델

2024년과 2025년에 이르러 제너럴리스트 로봇 연구는 단순히 언어 모델을 로봇에 적용하는 단계를 넘어, 물리적 상호작용의 정밀도를 극한으로 끌어올리고, 로봇이 물리 법칙을 내재화하는 ’세계 모델(World Model)’을 통합하는 방향으로 진화하고 있다.

4.1 Pi0 (Physical Intelligence): 플로우 매칭을 통한 정교한 제어

VLA 모델(RT-2 등)의 한계 중 하나는 행동을 이산적인 토큰으로 처리함으로써 발생하는 동작의 부자연스러움과 정밀도 저하였다. 이를 극복하기 위해 Physical Intelligence 사는 Pi0 모델을 선보였다. Pi0는 VLM 백본(PaliGemma 등)에 플로우 매칭(Flow Matching) 기반의 행동 생성 헤드를 결합한 하이브리드 아키텍처를 채택했다.24

플로우 매칭은 디퓨전 모델의 일종으로, 노이즈로부터 연속적인 행동 궤적(Trajectory)을 생성해낸다. Pi0는 한 번의 추론으로 50스텝의 미래 행동을 ’덩어리(Chunking)’로 예측하여 50Hz의 고주파수 제어를 가능하게 했다.26 이는 로봇이 단순히 물건을 옮기는 것을 넘어, 세탁물을 개거나(Folding laundry), 상자를 조립하고, 식탁을 치우는(Bussing) 등 고난도의 조작(Dexterous Manipulation)을 인간 수준의 유연함으로 수행할 수 있게 해준다.

Pi0의 설계 철학은 인간의 인지 구조인 **시스템 1(직관적, 반사적 행동)**과 **시스템 2(논리적, 계획적 사고)**의 결합을 모방한다. VLM 백본이 사용자의 복잡한 언어 명령을 해석하고 전체적인 계획을 수립(시스템 2)하면, 플로우 매칭 정책이 즉각적이고 정교한 물리적 움직임(시스템 1)을 생성하는 방식이다.27 이는 제너럴리스트 로봇이 갖추어야 할 ’뇌’와 ’척수’의 이상적인 결합 모델로 평가받는다.

4.2 GR00T (NVIDIA): 휴머노이드를 위한 범용 지능

NVIDIA의 **Project GR00T (Generalist Robot 00 Technology)**는 인간형 로봇(Humanoid)에 특화된 파운데이션 모델이다. 휴머노이드는 인간을 위해 설계된 환경에서 작업하기 가장 적합한 형태이지만, 제어가 가장 어렵다는 난제를 안고 있다. GR00T는 이를 해결하기 위해 로봇 궤적 데이터뿐만 아니라, 방대한 양의 **인간 비디오 데이터(YouTube 등)**를 학습에 활용한다.7

GR00T는 비디오 속 인간의 움직임을 관찰하여 이를 로봇의 동작으로 번역(Retargeting)하는 능력을 갖추었다. 또한, NVIDIA의 Isaac Lab과 같은 고충실도 시뮬레이터에서 수천 개의 병렬 환경을 돌려 생성한 **합성 데이터(Synthetic Data)**를 대규모로 학습에 사용하여 데이터 희소성 문제를 정면으로 돌파했다.28 GR00T 역시 VLM 기반의 인지 모듈과 디퓨전 기반의 행동 모듈을 결합한 이중 시스템 아키텍처를 통해, 언어 이해 능력과 역동적인 전신 제어 능력을 동시에 확보했다.7

4.3 Covariant RFM-1: 세계 모델로서의 로봇

Covariant 사의 RFM-1은 로봇에게 ’상상력’을 부여하는 데 초점을 맞춘다. RFM-1은 텍스트, 이미지, 비디오, 로봇 센서 데이터를 통합하여 학습한 애니 투 애니(Any-to-Any) 시퀀스 모델이다.29 이 모델의 가장 큰 특징은 비디오 예측(Video Prediction) 능력이다. 로봇이 특정 행동을 취했을 때 미래의 상황이 어떻게 변할지를 픽셀 단위의 비디오로 생성해낼 수 있다.

이는 로봇이 행동하기 전에 결과를 미리 시뮬레이션해 볼 수 있는 **내재적 세계 모델(Intuitive Physics World Model)**을 갖게 되었음을 의미한다. 예를 들어, 물체를 집었을 때 미끄러질지, 찌그러질지를 미리 예측하여 실수를 방지하고 계획을 수정할 수 있다.29 이는 단순한 모방 학습(Imitation Learning)을 넘어, 물리적 인과관계를 이해하는 진정한 의미의 범용 지능으로 나아가는 중요한 단계이다.

5. 데이터: 제너럴리스트의 연료

제너럴리스트 로봇의 성능은 결국 데이터의 양과 질, 그리고 다양성에 달려 있다. 스페셜리스트 시대의 데이터 전략이 ‘좁고 깊은’ 수집이었다면, 제너럴리스트 시대의 전략은 ‘넓고 거대한’ 통합과 합성이다.

5.1 데이터 희소성 극복과 Sim2Real 전략

앞서 언급한 대로 고품질의 로봇 행동 데이터는 여전히 부족하다. 이를 극복하기 위해 연구자들은 **시뮬레이션(Simulation)**을 적극 활용하고 있다. NVIDIA의 Isaac Sim이나 GenSim과 같은 도구들은 물리 법칙이 적용된 가상 환경에서 무한에 가까운 데이터를 생성할 수 있게 해준다.28 여기서 학습된 정책을 실제 세계로 전이하는 Sim2Real 기술은 도메인 무작위화(Domain Randomization) 등을 통해 가상과 현실의 간극을 메우고 있다.

5.2 인터넷 규모 데이터와 인간 비디오의 활용

로봇 데이터만으로는 부족한 ’상식’과 ‘일반화’ 능력은 인터넷상의 텍스트와 이미지 데이터로 보완된다. 더 나아가, 최근에는 YouTube 등에 있는 방대한 인간의 활동 비디오를 로봇 학습에 활용하는 연구가 활발하다. Vision-Language-Action 모델들은 인간이 도구를 사용하는 영상을 보고 그 행동의 의미와 목적을 학습한 뒤, 이를 로봇의 신체(Embodiment)에 맞게 변환하여 수행하는 능력을 키우고 있다.5 이는 로봇 데이터 수집의 고비용 구조를 탈피할 수 있는 핵심 열쇠가 된다.

6. 결론 및 미래 전망: 완전한 범용성을 향하여

우리는 지금 ’스페셜리스트’라는 안전하지만 좁은 울타리를 넘어, ’제너럴리스트’라는 거대하고 미지의 대륙으로 나아가고 있다. RT-2, Octo, Pi0, GR00T와 같은 모델들은 로봇이 더 이상 반복 작업만을 위한 기계가 아니라, 인간의 언어를 이해하고, 낯선 환경에서 추론하며, 정교한 물리적 기술을 구사할 수 있는 존재가 될 수 있음을 증명했다.

그러나 완전한 범용 로봇(General-Purpose Robot)의 실현을 위해서는 여전히 해결해야 할 난제들이 남아 있다.

첫째, 실시간성(Real-Time Inference)과 추론 비용의 문제다. 수백억 개의 파라미터를 가진 거대 모델을 로봇에 탑재하여 50Hz 이상의 실시간 제어 루프를 돌리는 것은 엄청난 연산 자원을 요구한다. 이를 해결하기 위해 모델 경량화, 엣지 컴퓨팅, 그리고 Pi0와 같은 효율적인 추론 아키텍처(Action Chunking) 연구가 지속되어야 한다.26

둘째, **안전성(Safety)과 환각(Hallucination)**의 문제다. LLM이 그럴듯한 거짓말을 하듯, 로봇 VLA 모델도 물리적으로 불가능하거나 위험한 행동을 생성할 수 있다. 로봇은 물리적 세계에 직접 개입하므로, 텍스트 모델의 오류보다 훨씬 심각한 결과를 초래할 수 있다. 따라서 로봇의 행동에 대한 불확실성을 정량화하고, 물리적 안전장치(Guardrails)를 모델 내부에 통합하는 연구가 필수적이다.8

셋째, 하드웨어와 소프트웨어의 공진화다. 범용 소프트웨어는 범용 하드웨어를 필요로 한다. 인간의 손과 같이 섬세한 조작이 가능한 범용 그리퍼(Gripper), 다양한 지형을 극복할 수 있는 휴머노이드 바디 등 하드웨어의 발전이 뒷받침되어야 제너럴리스트 AI의 잠재력이 온전히 발휘될 수 있을 것이다.

결론적으로, 스페셜리스트에서 제너럴리스트로의 목표 전환은 로봇 산업의 경제성을 근본적으로 바꿀 것이다. 로봇 도입의 한계 비용은 낮아지고, 소프트웨어 업데이트만으로 로봇이 새로운 작업을 배우는 ‘소프트웨어 정의 로봇(Software-Defined Robotics)’ 시대가 도래할 것이다. 이는 제조업과 물류를 넘어 가사, 돌봄, 의료 등 비정형 환경에서의 로봇 활용을 가능케 하여, 인류의 삶에 실질적인 도움을 주는 동반자로서의 로봇을 현실화하는 결정적인 계기가 될 것이다.

7. 참고 자료

  1. Generalist vs Specialist: Testing AI Models in the Warehouse | Blog, https://www.plusonerobotics.com/blog/generalist-vs-specialist-testing-ai-models-in-the-warehouse
  2. Toward General-Purpose Robots via Foundation Models - arXiv, https://arxiv.org/html/2312.08782v3
  3. On the Opportunities and Risks of Foundation Models, https://crfm.stanford.edu/assets/report.pdf
  4. Specialists vs. Generalists: The Duel of Task-Based and Generalist AI, https://www.beyondprompting.com/specialists-vs-generalists-the-duel-of-task-based-and-generalist-ai/
  5. Reverting Visual Domain Limitation of Robotic Foundation Models, https://arxiv.org/html/2409.15250v3
  6. The future of robotics, generalist or specialist? | by You Liang Tan, https://youliangtan.medium.com/the-future-of-robotics-generalist-or-specialist-aee719ca720e
  7. An Open Foundation Model for Generalist Humanoid Robots - arXiv, https://arxiv.org/pdf/2503.14734
  8. Foundation Models in Robotics: Applications, Challenges, and the …, https://arxiv.org/html/2312.07843v1
  9. A Generalist Agent - OpenReview, https://openreview.net/forum?id=1ikK0kHjvj
  10. A Generalist Agent - Google DeepMind, https://deepmind.google/blog/a-generalist-agent/
  11. GATO A Generalist Agent | PDF | Simulation | Machine Learning, https://www.scribd.com/document/622251737/GATO-a-generalist-agent
  12. (PDF) A Generalist Agent - ResearchGate, https://www.researchgate.net/publication/360559690_A_Generalist_Agent
  13. Gato – A Generalist Agent - Hacker News, https://news.ycombinator.com/item?id=31415478
  14. [PDF] RT-1: Robotics Transformer for Real-World Control at Scale, https://www.semanticscholar.org/paper/RT-1%3A-Robotics-Transformer-for-Real-World-Control-Brohan-Brown/fd1cf28a2b8caf2fe29af5e7fa9191cecfedf84d
  15. Robotics Transformer: RT-1, https://robotics-transformer1.github.io/
  16. RT-1: Robotics Transformer for Real-World Control at Scale - arXiv, https://arxiv.org/abs/2212.06817
  17. [2307.15818] RT-2: Vision-Language-Action Models Transfer Web …, https://arxiv.org/abs/2307.15818
  18. (PDF) RT-2: Vision-Language-Action Models Transfer Web …, https://www.researchgate.net/publication/372784419_RT-2_Vision-Language-Action_Models_Transfer_Web_Knowledge_to_Robotic_Control
  19. RT-2: New model translates vision and language into action, https://deepmind.google/blog/rt-2-new-model-translates-vision-and-language-into-action/
  20. Open X-Embodiment: Robotic Learning Datasets and RT-X Models, https://robotics-transformer-x.github.io/
  21. Open X-Embodiment: Robotic Learning Datasets and RT-X Models, https://is.mpg.de/ics/de/publications/openx24
  22. Octo: An Open-Source Generalist Robot Policy, https://www.roboticsproceedings.org/rss20/p090.pdf
  23. Octo: An Open-Source Generalist Robot Policy, https://octo-models.github.io/
  24. π0: A Vision-Language-Action Flow Model for General Robot Control, https://www.physicalintelligence.company/download/pi0.pdf
  25. Demystifying Robotic Foundational Models: Pi0 - TUUL.AI Research, https://tuul.ai/research/pi0-robotic-foundation-model
  26. Vision-Language-Action Models for General Robot Control, https://huggingface.co/blog/pi0
  27. [Paper Review] Pi0, Pi0.5, Pi0-FAST - Tracing the Path of Physical …, https://bequiet-log.vercel.app/pi-review
  28. NVIDIA Announces Project GR00T Foundation Model for Humanoid …, https://nvidianews.nvidia.com/news/foundation-model-isaac-robotics-platform
  29. Covariant Introduces RFM-1 to Give Robots the Human-like Ability to …, https://www.roboticstomorrow.com/news/2024/03/11/covariant-introduces-rfm-1-to-give-robots-the-human-like-ability-to-reason/22210/
  30. Covariant claims its AI model will let robots learn like humans, https://www.siliconrepublic.com/machines/covariant-ai-robotics-reason-foundaton-model
  31. Awesome-Generalist-Robots-via-Foundation-Models/README.md …, https://github.com/JeffreyYH/Awesome-Generalist-Robots-via-Foundation-Models/blob/master/README.md